基于 文本 生成 技术 的 历史 古籍 事件 识别 模型 构建 研究 


王 彦 莹 ””，" 王 昊 ””， 朱 惠 ””， 李 晓 敏 ”” 
理学 院 ， 南 京 210023) 
“( 江 苏 省 数据 工程 与 知识 服务 重点 实验 室 〈 南 京 大 学 )， 南 京 210093) 


摘要 : 
[目的 ] 对 比 序列 标注 方法 和 文本 生成 方法 在 历史 古籍 事件 识别 上 的 表现 ， 以 构建 历史 古籍 事件 识别 模型 。 

[方法 ] 本 文选 取 《 三 国志 》 为 原始 语 料 ， 序 列 标注 实验 对 《三 国志 》 事 件数 据 集 进行 BMES 标注 ， 构 建 BBCN-SG 
模型 ， 文 本 生成 实验 构建 T5-SG 模型 ， 对 比 两 种 方法 的 表现 。 又 构建 RoBERTa-SG、NEZHA-SG 模型 展开 生成 模型 的 
对 比 实验 。 结 合 三 个 文本 生成 模型 ， 融 入 Stacking 集成 学 习 的 思想 ， 构 建 Stacking-TRN-SG 模型 。 
[结果 ] 在 历史 古籍 事件 识别 建 模 问 题 上 ， 文 本 生成 方法 的 表现 明显 优 于 序列 标注 方法 。 而 在 文本 生成 方法 中 ， 三 
个 模型 表现 则 是 RoBERTa-SG > T5-SG > NEZHA-SG。Stacking 集成 学 习 大 大 提高 了 生成 模型 的 识别 效果 。 

[局 限 ] 本 文 计算 资源 有 限 ，Stacking-TRN-SG 模型 缺少 在 其 他 历史 古籍 语 料 中 的 应 用 研究 。 

[结论 ] 本 文 构建 的 Stacking-TRN-SG 模型 初步 实现 历史 古籍 的 自动 事件 识别 。 
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Abstract: 
[Objective] In order to construct a event recognition model in historical books, the performance of 
sequence labeling method in event recognition in historical ancient books is compared with that of 
text generation method. 
[Methods] In this paper, “Three Kingdoms” is selected as the original corpus. To compare the 
performance of the two methods, performing on the “Three Kingdoms” event data set, the sequence 
labeling experiment used BMES annotation and builded the BBCN-SG model , and the text generation 
experiment builded the T5-SG model. It also builded RoBERTa-SG and NEZHA-SG models to conduct 
comparative experiments on generative models. Combining three text generation models and 
integrating the idea of Stacking ensemble learning, the Stacking-TRN-SG model is constructed 
[Results] On the subject of modeling event recognition in historical ancient books, the performance 


of the text generation method is significantly better than that of the sequence labeling method. In 
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the text generation method, the performance of the three models is RoBERTa-SG > T5-SG > NEZHA-SG. 
Stacking ensemble learning greatly improves the recognition performance of generation models 
[Limitations] The computational resources of this paper are limited, and the Stacking-TRN-SG model 
lacks application research in other historical and ancient corpora. 

[Conclusions] The Stacking-TRN-SG model constructed in this paper preliminarily realizes the 
automatic event recognition of historical ancient books 
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learning 
1 引言 
历史 古籍 是 中 华文 化 源远流长 、 博 大 精深 的 重要 标志 。 将 历史 古籍 数字 化 、 应 用 化 可 以 更 好 地 传 


承 中 华文 化 . 基于 历史 古籍 构建 知识 图 谱 可 以 直观 地 向 人 们 展示 历史 ， 从 而 了 解 历史 。 事 件 识别 是 构 
建 知 识 图 谱 过 程 中 信息 抽取 的 重要 一 环 。 然 而 ， 针 对 历史 古籍 进行 事件 识别 ， 通 常会 面临 古 汉语 语义 
难以 理解 、 单 字 居 多 从 而 不 便 概括 事件 等 问题 。 如 果 采 用 人 工 概括 历史 事件 ， 耗 时 耗 力 ， 且 有 具有 较 高 
的 主观 性 ， 容 易 受 到 研究 者 知识 水 平 的 限制 ， 很 有 可 能 出 现 缺失 或 错误 的 情况 。 因 此 ， 面 向 历史 古籍 


三 的 事件 自动 识别 是 十 分 有 必要 的 。 


-上 关于 历史 古籍 的 事件 识别 ， 本 文 需要 解决 以 下 几 个 问题 ， 对 于 《三 国志 》 等 历史 古籍 的 古 汉语 ， 
与 研究 者 尚且 难以 理解 其 含义 , 机 器 能 否 准确 识别 事件 ? 序列 标注 和 文本 生成 方法 是 目前 主流 的 事件 识 


加 别 方法 ,但 是 缺少 两 种 方法 的 具体 比较 研究 ， 两 者 在 古 汉 语 上 的 表现 分 别 如 何 、 有 无 优 劣 之 分 ? 目前 
一 序列 标注 方法 大 多 数 是 针对 命名 实体 识别 的 , 标注 的 标签 也 以 短 距离 的 约束 为 主 , 而 事件 识别 则 是 对 
己 ) 于 长 句 中 的 部 分 字 概括 ， 存 在 较 多 远 距 离 约束 的 情况 ， 对 于 序列 标注 方法 而 言 ， 远 距离 的 约束 能 否 被 
A] 机 器 较 好 地 学 习 ? 对 于 文本 生成 方法 而 言 ， 机 器 能 否 生成 类 古 汉 语 形式 的 事件 ? 为 此 ,本 文 希望 通过 


GN 序列 标注 和 文本 生成 技术 对 历史 古籍 开展 事件 识别 研究 ,以 构建 历史 古籍 事件 识别 模型 ， 实 现 历史 古 


局 逢 事件 识别 的 自动 化 。 


本 文选 取 《 三 国志 》 为 原始 语 料 ， 分 别 从 序列 标注 与 文本 生成 两 个 方法 展开 实验 。 序 列 标注 实验 
-一 对 《三 国志 》 事 件数 据 集 进 行 BMES 标注 ， 应 用 BERT-BiLSTM-CRF-NER 模型 进行 训练 和 预测 。 文 本 生 


ee 成 实验 则 应 用 T5 预 训练 模型 进行 训练 和 预测 。 文 本 生成 方法 在 《三 国志 》 事 件数 据 集 上 的 表现 大 大 
下 超过 序列 标注 方法 ， 所 以 又 选取 RoBERTa、NEZHA 两 个 文本 生成 模型 进行 事件 识别 训练 。 最 后 ， 结 合 


二 三 个 文本 生成 模型 ， 融 入 Stacking 集成 学 习 的 思想 ， 构 建 了 Stacking-TRN-SG 模型 。 
2 相关 研究 


事件 识别 ”““ 是 信息 抽取 的 重要 组 成 部 分 ， 至 今 已 取得 一 定 的 研究 成 果 。 目 前 国内 外 的 研究 工 
作 主 要 将 事件 识别 分 为 两 大 类 : 基于 规则 的 方法 和 基于 统计 的 方法 。 基于 规则 的 方法 以 模式 匹配 为 主 
要 手段 , 即 事先 制定 字典 , 然后 根据 一 定 的 规则 和 模式 将 待 识 别 的 句子 与 字典 进行 匹配 , 准确 率 较 高 ， 
如 Surdeanu 等 “构建 了 针对 开放 域 的 事件 抽取 系统 FSA。 但 这 个 方法 对 字典 的 依赖 性 较 大 ， 可 移 
植 性 差 。 基 于 统计 的 方法 将 事件 识别 作为 分 类 问题 ， 主 要 研究 分 类 器 的 选择 、 构 建 和 特征 的 选择 ， 常 
用 的 方法 有 隐 马 尔 可 夫 模 型 HMM*、 最 大 粹 模型 MEM”"、 支 持 向 量 机 SVM”、 条 件 随 机 场 CRFs” 等 。 
这 个 方法 相对 来 说 不 需要 过 多 的 人 工 ， 且 更 为 灵活 ,可 移植 性 高 。 如 Ahn D. ”结合 MegaM、Timbl] 两 
种 机 器 学 习 方 法 研究 事件 类 型 识别 和 事件 元 素 识别 ， 在 ACE 英文 语 料 上 取得 了 较 好 的 识别 效果 。 李 
章 超 等 人 应 用 模式 匹配 法 实现 《 左 传 》 战 争 句 的 识别 ”””， 这 种 方法 依赖 事件 触发 词 表 和 规则 的 构 
建 ， 不 利于 广泛 性 事件 识别 的 开展 ， 并 且 本 文 研究 的 历史 古籍 事件 识别 具有 上 古 汉 语 单字 居多 的 特点 ， 
在 句法 上 与 现代 汉语 不 同 , 不 适合 基于 规则 的 方法 。 在 基于 统计 的 方法 中 , CRFs 模型 的 特征 设计 更 为 
灵活 ， 被 广泛 应 用 与 命名 实体 识别 领域 。 古 汉语 命名 实体 识别 ”主要 包括 人 名 、 地 名 等 实体 ， 
这 类 命名 实体 识别 的 约束 以 短 距离 为 主 , 少 有 远 距离 约束 的 研究 , 因此 笔者 参考 命名 实体 识别 的 方法 ， 
对 历史 事件 进行 序列 标注 ， 探 究 序列 标注 方法 对 远 距 离 约束 的 事件 识别 的 有 效 性 。 


本 文 将 文本 生成 方法 的 事件 识别 转化 为 生成 式 摘要 任务 。 近 几 年 ， 深 度 学 习 技术 不 断 发 展 ， 序 列 
到 序列 模型 (Sequence to sequence，Seq2seq) 研究 "取得 了 极 大 进步 ， 被 广泛 应 用 于 自然 语言 生 
成 领域 。Cho 等 “和 Sutskever 等 "提出 了 Seq2seq 模型 ， 主 要 结构 是 编码 器 (encoder) 和 解码 器 
Cdecoder)， 其 基本 思想 即 通过 输入 序列 的 全 局 信息 推断 出 与 之 相对 应 的 输出 序列 。Rush 等 “首次 
将 Seq2seq 模型 应 用 于 生成 式 摘要 ， 相 比 之 前 的 生成 式 方法 ，S$eq2seq 更 加 接近 于 人 工 生成 摘要 ， 取 
得 了 良好 的 生成 效果 。 此 后 ， 基 于 Seq2sed 的 生成 式 摘 要 模型 的 相关 研究 如 雨后春笋 般 涌 现 ， 为 机 器 
学 习 领 域 作出 了 极 大 的 贡献 。 


3 数据 与 方法 


3.1 研究 框架 
结合 上 述 的 模型 方法 ， 历 史 古 籍 选取 《三 国志 》 为 原始 语 料 ， 开 展 事件 识别 研究 ， 实 验 的 整体 研 
究 框架 如 图 1 所 示 。 有 具体 如 下 : 
首先 对 比 研 究 序列 标注 方法 与 文本 生成 方法 在 人 三国志》 事件 数据 集 上 的 表现 。 在 序列 模型 部 分 
结合 序列 标注 的 方法 ， 对 已 有 的 事件 数据 集 进行 BMES 标注 ， 基 础 模型 选用 BERT_BiLSTM_CRF_NER 模 
型 ， 重 新 训练 后 得 到 BBCN-SG 模型 ， 对 测试 集 进 行 预 测 。 ee ， 应 用 T5 预 训 练 模型 对 事 
一 件数 据 集 进行 训练 ， 得 到 T5-SG 模型 ， 并 对 测试 集 进行 预测 。 结果 发 现 文本 生成 方法 在 事件 数据 集 上 
> 的 表现 明显 优 于 序列 标注 方法 。 
< 基于 这 一 结果 ， 又 增加 了 RoBERTa、NEZHA 两 个 预 训 练 模型 对 事件 数据 集 进 行 生 成 实验 ， 分 别 构 
加 建 RoBERTa-SG、NEZHA-SG 模型 ， 并 对 比 3 个 文本 生成 模型 在 《三 国志 》 事 件数 据 集 上 的 表现 。 最 后 ， 
©O 在 此 基础 上 ， 融 入 集成 学 习 思 想 ， 采 用 Stacking 方法 将 三 个 生成 模型 融合 ， 构 建 Stacking-TRN-SG 


吕 模型 。 
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图 1 实验 研究 框架 流程 图 


3.2 数据 收集 与 预 处 理 
(1) 数据 收集 
实验 数据 来 源 于 《三 国志 》1-30 章 ， 即 《 魏 书 》。 数据 原文 是 繁体 的 ， 以 “. ”为 句 读 ， 并 且 在 


文中 以 括号 形式 加 入 了 注释 。 将 数据 原文 由 繁体 转化 为 简体 ， 将 句 读 由 “ . ” 蔡 换 为 空格 ， 并 且 删 去 
了 括号 内 的 注释 。 此 外 ， 由 于 历史 发 展 的 原因 ， 有 部 分 原文 文字 无 法 被 机 器 识别 ， 笔 者 根据 “古诗 广 
网 ”、“ 吉 诗 大 全 ”* 等 网 站 ， 综 合 考量 ， 将 其 进行 车 换 补充 。 如 “士卒 无 200050 志 ” 营 换 为 “ 士 认 
无 斗志 ”。 以 《三 国志 》 第 一 章 《 武 帝 纪 》 第 一 段 为 例 ,《 三 国志 》 原 文 的 文本 处 理 如 表 1 所 示 ， 并 提 
供 了 “古诗 文 网 ”的 版 本 作为 参考 : 


表 1 《三 国志 》 第 一 章 《 武 帝 纪 》 第 一 段 的 文本 处 理 
太 祖 武 皇帝 . 沛 国 族人 也 . 姓 曹 . 说 操 . 字 备 德 . 江 相 国 参 之 后 ，( 太 祖 一 名 吉利 . 小 
字 阿 螨 . 王 沈 魏 书 日 . 其 先 出 於 黄帝 . 当 高 阳 世 . 陆 终 之 子 日 安 . 是 为 章 姓 . 周 武王 克 


三 | 


殷 . 存 先世 之 后 . 封 曹 快 於 六 . 春秋 之 世 . 与 於 盟 会 . 逮 至 战国 . 为 楚 所 注 . 子 琢 分 流 
. 或 家 于 沛 . 汉 高 祖 之 起 . 曹参 以 功 封 平阳 侯 . 世 瘟 珊 士 . 绝 而 复 绍 . 至 今 适 关 国 於 容 
城 . ) 桓帝 世 . 曹 腾 为 中 常 侍 大 长 秋 . 封 费 亭 侯 . ( 司 扎 彪 续 漠 书 日 . 腾 父 节 . 字 元 傣 
. 素 以 仁厚 称 . 卷 人 有 亡 系 者 . 与 节 系 相 类 . 庄 门 认 之 . 节 不 与 争 . 后 所 亡 系 自 逮 其 家 


. 系 主 人 大 200592 . 送 所 认 系 . 并 人 酬谢 节 . 和 节 笑 而 受 之 . 由 是 乡 党 贵 鞭 看 . 长 子 伯 克 

次 子 仲 由 . 次 子 叔 归 . 腾 字 季候 . 少 除 黄 门 从 官 . 永宁 元 年 . 弛 太后 诏 黄 门 令 选中 黄 门 

从 官 年 少 泥 谨 者 配 皇 太 子 书 . 腾 应 其 遗 . 太子 特 亲 爱 腾 . 饮食 赏赐 与 众 有 黑 . 顺 帝 即位 

初始 版 本 “. 为 小 黄 门 . 还 至 中 常 侍 大 长 秋 . 在 省 阅 三 十 余年 . 历 事 四 帝 . 未 沉 有 过 . 好 进 迷 贤能 

. 终 人 无 所 毁伤 . 其 所 称 廊 . 若 陈 留 虎 放 . 站 韶 . 南阳 延 固 . 张 泥 . 弘 农 张 负 . 颖 川 党 内 

等 . 丝 致 位 公卿 . 而 不 伐 其 善 . 罚 郡 太守 因 计 吏 修 敬 於 腾 . 益 州 刺史 种 蝇 於 函 谷 关 搜 

其 乔 . 上 太守 . 并 奏 腾 内 臣 外 交 . 所 不 当 为 . 请 免 官 治罪 . 帝 日 . 舱 自 外 来 . 腾 书 不 

. 非 其 罪 也 . 乃 寝 旱 奏 . 腾 不 以 介意 . 常 称 款 局 . 以 为 电 得 事 上 之 节 . 蝇 和 后 为 司徒 . 

人 日 . 今日 为 公 . 乃 曹 常 侍 恩 也 . 腾 之 行事 . 缘 此 类 也 . 桓帝 即位 . 以 膳 先帝 欧 臣 . 

: 孝 彰 著 . 封 费 亭 侯 . 加 位 特 进 . 太 和 三 年 . 追 尊 腾 日 高 皇帝 . ) 养子 骨 嗣 . 官 至 太 尉 

. 莫 能 审 其 生出 本 末 . ( 绩 江 书 日 . 党 字 巨 高 . 质 性 敦 慎 . 所 在 忠孝 . 为 司 皇 校 尉 . 起 

帝 氛 拜 大 司 农 . 大 江 肪 . 代 崔 烈 为 太 尉 . 黄 初 元 年 . 追 尊 尖 日 太 皇 帝 . 吴 人 作 曹 眶 传 及 

语 背 云 . 岗 . 夏侯 氏 之 子 . 夏侯 停 之 叔父 . 太 祖 於 停 为 从 父兄 弟 . ) 山 生 太 祖 . 

《古诗 文 ” 太 祖 武 皇帝 ， 沛 国 兴 和 人 也 ， 姓 曹 ， 讳 操 ， 字 孟 德 ， 汉 相国 参 之 后 。 桓 帝 世 ， 曹 腾 为 中 常 
网 》 版 本 。” 侍 大 长 秋 ， 封 费 亭 侯 。 养 子 山 关 ， 官 至 太 尉 ， 莫 能 审 其 生出 本 末 

太 祖 武 皇帝 沛 国 认 人 也 姓 曹 讳 操 字 孟 德 汉 相国 参 之 后 桓帝 世 曹 腾 为 中 常 侍 大 长 秋 

封 费 亭 修 养子 山 关 官 至 太 尉 莫 能 审 其 生出 本 末 册 生 太 祖 
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(2) 数据 预 处 理 

实验 人 工 提炼 出 包含 事件 的 原文 ， 并 对 原文 进行 缩 句 摘要 。 特 别 地 ， 由 于 序列 模型 实验 需要 ， 需 
保证 摘要 的 文字 完全 来 自 于 原文 。 处 理 好 的 数据 如 表 2 所 示 ，source 为 提炼 出 的 原文 文本 ，target 
为 source 的 摘要 版 本 ， 即 target 可 以 理解 为 是 source 的 子 集 。 最 终 共 得 到 671 条 数据 ， 数 据 集 以 
500: 171 的 比例 划分 为 训练 集 和 测试 集 。 


表 2 《三 国志 》 事 件数 据 


序号 ”章节 source target 
1 1 蔓 州 刺史 王 芬 南阳 许 依 沛 国 周旋 等 连结 豪杰 谋 废 豪杰 谋 废 灵 帝 立 合肥 
灵 帝 立 合 肥 侯 以 告 太 祖 保 


2 6 十 


古诗 文 网 ”: https:/www.gushiwen.cn/guwen/sanguo.aspx 


“古诗 大 全 ”: https://www.shidaquan.com/ju9656587 


2 1 ” 章 到 废 帝 为 弘 农 王 而 并 献帝 卓 废 帝 为 弘 农 王 而 立 献 


一 


3 1 ” 齐 遂 杀 太 后 及 弘 农 王 齐 杀 太后 及 弘 农 王 

4 1 ”大 祖 至 陈 留 散 家 财 合 义 兵 将 以 诛 晶 太 祖 将 诛 续 

5 1 ” 众 各 数 万 推 绍 为 盟主 众 推 绍 为 盟主 

6 1 ”到 痰 阳 沪 水 遇 卓 将 徐 荣 与 战 不 利 士卒 死伤 其 多 太 ” 太 祖 遇 徐 这 与 战 不 利 


祖 为 流 矢 所 中 所 乘 马 被 创 
7 1 “司徒 王 多 与 吕布 共 杀 卓 王 允 与 吕布 杀 卓 
8 1 ”二 年 春 袭 定 陶 济 阴 太守 吴 资 保 南 城 未 拔 会 吕布 至 太 祖 攻 吕 

又 击破 之 夏 布 将 薛 兰 李 封 屯 巨 野 太 祖 攻 之 


9 1 ” 卓 将 李 众 郭 江 等 杀人 允 攻 布 早 将 杀人 允 攻 布 
10 1 ” 公 到 宛 张 绣 降 既而 悔 之 复 反 公 与 战 公 与 张 绣 战 


生成 模型 的 数据 即 source 和 target 数据 ,而 序列 模型 的 数据 需要 将 其 转换 为 标注 数据 。 首 先 根 
据 target 数据 ， 对 source 数据 进行 标注 ， 采 用 “BMES” 标 注 法 ， 标 注 实例 如 表 3 所 示 ， 其 中 具体 标 
注 规则 如 下 : @ target 数据 中 的 第 一 个 字 ， 在 source 数据 上 标注 为 “B” @ target 数据 中 的 最 
后 一 个 字 ， 在 source 数据 上 标注 为 “E” 四 target 数据 中 的 其 他 字 ， 即 非 首尾 字 ， 在 source 数 


写 据 上 标注 为 “M” 由 未 在 target 数据 中 出 现 的 字 ， 在 source 数据 上 标注 为 “S” @@ target 数据 


的 首尾 字 ， 如 果 多 次 出 现 ， 则 都 标注 为 “B” 或 “E” G@@ 标注 的 句 首 和 句 尾 的 位 置 ， 不 以 在 source 
数据 中 出 现 的 位 置 为 准 ， 而 是 以 在 target 数据 中 出 现 的 位 置 为 准 。 根 据 模型 训练 的 需要 ， 标 注 数 据 
”的 每 个 字 及 其 标注 为 一 行 ， 每 条 数据 间 插 入 空 行进 行 分 隔 ， 如 表 3 中 的 实例 所 示 。 


表 3 序列 标注 数据 实例 
序号 标注 实例 实例 
到 获 阳 六 水 。 遇 卓 将 徐 荣 。 与 战 不 利 。 士 浴 死 伤 其 多 。 太 祖 为 


建 S 

Souree 流 矢 所 中 。 所 乘 马 被 创 安 8 

， _Target 大 祖 过 徐 荣 ， 与 战 不 利 LD 
到 S 奖 S 阳 S 汶 S 水 S*S 遇 M 卓 S 将 S 徐 M 张 MS 与 M 5 

标注 战 M 不 M 利 E"S 士 S 认 S 死 S 伤 其 Ss 多 SS 太 B 祖 M gnB 

为 8S 流 S 和 撩 S 所 S 中 SS 所 S 乘 S$ 马 S 被 $ 创 S 悉 S 

Source ” 尚 果 循 西 山 来 ， 临 洪水 为 营 。 夜 遗 兵 犯 围 .公道 击破 走 之 军 S 

i Target ”公道 击破 走 尚 a 
标注 ” 尚 E 果 S 循 8 西山 S 来 S$，S 临 $ 溢 S 水 S 为 $ 丫 SS 夜 。S 
"Ss 道 8 兵 S$ 犯 8 轩 S$.S 公 B 池 M 市 M 破 M 走 M 之 S 刺 下 
Sowc。 十 二 月 “孙权 为 备 攻 合 肥 。 公 自 江陵 征 备 。 至 巴 碑 但 张 意 救 遗 S 
合肥 。 权 闻 意 至 。 乃 走 。 公 至 赤壁 ，。 与 备战 。 不 利 TS 

Target ” 公 征 备 。 与 备战 。 不利 

3 十 S 二 S 月 S*S 孙 S 权 S 为 S$ 备 M 攻 S 合 S 肥 S*S 公 B 自 于 8s 
_,， S 江 S 陵 S 征 M 备 M*S 至 S 巴 S$ 后 SS 遗 S 张 S 意 S 救 9 黑 S 

标注 as 肌 S.s 权 S 闻 S 意 至 SS 乃 S 走 S$.S 公 B 至 S 赤 S hs 
贼 S 


壁 S。S 与 M 备 M 战 M。*S 不 S 利 E 


3.3 实验 方法 
(1) 模型 选择 

本 文 实验 的 难点 在 于 《三 国志 》 事 件数 据 集 较 小 ， 直 接 训 练 模 型 很 难 取 得 较 好 的 成 果 ， 所 以 本 文 
选取 BERT-BiLSTM-CRF-NER 模型 "作为 序列 标注 方法 的 基础 模型 ，T5、RoBERTa、NEZHA 三 个 预 训练 模 
型 作为 文本 生成 方法 的 基础 模型 。 

BERT (Bidirectional Encoder Representations from Transformers ) “模型 是 一 个 基于 
Transformer 结构 的 双向 编码 器 ， 其 结构 可 以 简单 理解 为 Transformer 的 encoder 部 分 。BERT 预 训练 
任务 主要 包括 MLM (Masked Language Model) 和 NSP (Next Sequence Prediction) 两 个 部 分 ， 以 实 
现 编码 层 的 构建 。 该 模型 充分 训练 了 包含 800M 词语 的 BooksCorpus 和 包含 2500M 词语 的 英语 
Wikipedia 的 大 规模 的 无 标注 语 料 ， 使 得 下 游 具 体 任 务 可 以 很 轻松 的 完成 微调 ， 大 大 降低 了 下 游 任 务 
所 需 的 样本 数据 和 计算 算 力 。BERT 模型 在 自然 语言 处 理 领 域 中 的 各 种 问题 上 都 取得 了 较 好 的 成 果 ， 
其 提出 的 预 训练 (pretrain) + 微调 (fine-tune) 两 阶段 已 成 为 自然 语言 处 理 领 域 的 基本 范式 ， 是 
近 几 年 的 一 大 创新 ， 随 之 引起 了 一 大 波 预 训练 模型 的 出 现 。BERT 模型 本 文 使 用 的 3 种 文本 生成 模型 
都 是 在 BERT 模型 的 基础 上 进行 优化 改进 后 的 预 训练 模型 ， 在 模型 基础 上 结合 《三 国志 》 事 件数 据 集 
微调 ， 得 到 预测 结 

T5 模型 (Text-To-Text-Transfer-Transformer) “39989 是 谷歌 在 2019 年 10 月 提出 的 


三 预 训练 模型 。 从 任务 框架 上 上，T5 创造 性 地 将 每 个 自然 语言 处 理 任务 ， 包 括 自然 语言 理解 和 自然 语言 


+ 生成 ， 统 一 为 “Text-To-Text” 的 问题 。 对 于 机 器 翻译 、 文 本 分 类 、 文 本 相似 度 、 文 本 摘要 等 不 同 的 


局 任务， 只 需 在 输入 上 添加 不 同 的 前 缀 ， 即 可 通过 生成 模型 得 到 输出 结果 。BERT 模型 仅 采用 了 

〇 Transformer 架构 的 encoder 部 分 ， 而 T5 模型 将 问题 都 统一 成 了 生成 问题 ， 所 以 采用 原版 

之 Transformer 的 encoder 和 decoder。 此 外 ，T5 采用 了 相对 位 置 编码 替代 固定 位 置 编码 。 在 数据 

SG) 上 ，7T5 大 大 提高 了 训练 语 料 的 数量 和 质量 ， 采 用 了 750GB 的 C4 语 料 (Colossal Clean Crawled 
EU Corpus )。 在 训练 方法 上 ，1T5 参考 SpanBERT， 采 用 跨度 掩 码 (span masking); 增长 训练 步 长 ， 提 高 


CN 至 1M; 使 用 混合 训练 (multi-task) 的 方式 ， 在 无 监督 数据 中 ， 加 入 了 部 分 有 监督 的 数据 等 等 。 
CR RoBERTa 模型 (A Robusty 0ptimized BERT Pretraining Approach) “是 Facebook 与 华盛顿 大 
2:” 学 在 2019 年 7 月 提出 的 预 训练 模型 。RoBERTa 模型 相 比 于 BERT 模型 的 静态 掩 码 ， 采 用 动态 掩 码 ， 方 


:二 法 类 似 于 交叉 验证 ， 这 种 方法 使 得 每 一 份 语 料 都 会 产生 不 同 掩 码 ， 略 微 提 高 了 模型 的 识别 效果 ; 移 除 
全 了 NSP 目标 函数 ,采用 FULL-SENTENCES 和 DOC-SENTENCES 的 方式 构造 序列 ;将 原始 语 料 增 大 到 1606; 


己 以 字 节 级 BPE 编码 替代 BERT 模型 采用 的 字符 级 BPE 编码 ; 超 参 优化 ， 增 大 batch size 和 训练 迭代 次 
> 数 等 。 
O NEZHA《 哪 星 ) "模型 是 华为 诺 亚 方 舟 实验 室 在 2019 年 9 月 提出 的 面向 中 文 自然 语言 理解 任务 的 

预 训练 模型 。 在 训练 方法 上 主要 作出 了 4 点 改进 : NEZHA 模型 采用 函数 式 相 对 位 置 编码 ， 通 过 使 用 相 
对 位 置 的 正弦 函数 计算 输出 和 Attention 的 得 分 ， 将 随机 掩 码 蔡 换 为 全 词 掩 码 进行 训练 ， 采 用 混合 
精度 训练 ， 在 训练 过 程 中 同时 使 用 单 精度 和 半 精 度 ， 从 而 加 速 训练 ， 使 用 LAMB 优化 器 。 
(2) 集成 学 习 

集成 学 习 "" “思想 由 Dasarathy 和 Sheela 在 1979 年 首次 提出 。 此 后 , 集成 学 习 成 为 机 器 学 习 领 域 中 的 一 
个 重要 分 支 。 集 成 学 习 算 法 主要 由 3 种 经 典 算法 组 成 : Bagging"”、Boosting”"”、Stacking[”。Bagging 算法 
通过 bootstrap 抽样 从 原始 数据 集 生成 多 个 不 同 的 训练 子 集 ， 再 分 别 用 不 同 的 训练 子 集训 练 多 个 不 同 的 分 类 
有 器， 最终 采用 投票 的 方式 组 合 所 有 的 分 类 结果 。Boosting 算法 通过 增加 迭代 次 数 ， 反 复 运 行将 弱 学 习 器 转换 
为 强 学 习 器 。Stacking 算法 则 是 首先 调用 多 个 不 同类 型 的 个 体 分 类 器 在 同一 训练 集 上 进行 训练 ， 再 以 这 些 个 
体 分 类 器 的 输出 作为 输入 来 训练 元 分 类 器 。 笔 者 参考 Stacking 算法 和 Bagging 的 思想 ， 将 3 个 生成 模型 的 结 
果 以 投票 的 方式 整合 ， 完 成 生成 模型 的 集成 学 习 实验 。 


3 https://github.com/macanv/BERT-BiLSTM-CRF-NER 


3.4 模型 构建 

本 文 实验 过 程 分 为 序列 模型 构建 、 生 成 模型 构建 及 生成 模型 集成 学 习 三 个 部 分 。 

序列 模型 选用 BERT-BiLSTM-CRF-NER 模型 作为 基础 模型 , 在 模型 基础 上 进行 微调 , 结合 《三 国志 》 
事件 数据 集 ， 再 训练 后 得 到 BBCN-SG 模型 ， 对 测试 集 进行 预测 。 最 终 ， 得 到 模型 对 测试 集 预测 后 的 标 
签 ， 所 以 直接 对 比 目 标 标签 与 预测 标签 来 评价 模型 性 能 。 在 应 用 层面 ， 根 据 BMES 标注 方法 ， 首 向 将 
预测 标签 还 原 为 预测 摘要 。 其 中 ， 部 分 参数 设置 如 下 : 最 大 序列 长 度 max_length 为 128， 学 习 率 设置 
为 1e-5，batch size 设置 为 16， 训 练 轮 数 epoch 设置 为 10。 

生成 模型 前 后 共 选 取 T5、RoBERTa、NEZHA 三 个 预 训练 模型 进行 实验 ， 与 序列 模型 相同 ， 进 行 微 
调 ， 结 合 《 三 国志 》 事 件数 据 集 再 训练 ， 构 建 T5-SG、RoBERTa-SG、NEZHA-SG 模型 。 结 合 实际 情况 ， 
将 三 个 生成 模型 参数 设置 为 一 致 ， 其 中 ， 最 大 序列 长 度 max_length 为 256， 学 习 率 设置 为 le-5， 
batch_size 设置 为 16。 三 个 生成 模型 的 训练 轮 数 epoch 均 设置 为 20。 

三 个 生成 模型 训练 完成 后 ， 对 测试 集 进 行 预测 ， 得 到 171#3 条 预测 结果 。 将 预测 结果 与 目标 摘要 
文本 进行 对 比 ， 通 过 ROUGE 与 BLEU 评估 指标 ， 对 模型 预测 效果 进行 量化 的 展示 ， 并 在 量化 的 基础 上 
进行 Stacking 集成 学 习 。 

3.5 评价 指标 

人 工 评价 事件 识别 的 好 坏 具 有 较 大 的 主观 性 ， 并 且 也 需要 耗费 大 量 的 时 间 和 精力 。 因 此 ， 本 文 主 
> 要 参考 一 些 主流 的 评价 指标 ,以 量化 的 方式 评价 事件 识别 的 结果 。 序列 模型 直接 对 比 目 标 标签 与 预测 
村 标签 ， 应 用 seqeval 序列 标注 评估 工具 4 进行 评估 。 生 成 模型 则 是 应 用 ROUGE、BLEU 指标 来 评价 。 对 
己 于 模型 进行 评价 时 ， 取 所 有 预测 结果 得 出 的 评价 指标 的 平均 值 作为 模型 的 评价 指标 。 
〇 (1) 序列 模型 评价 指标 
本 文采 用 BMES 的 标注 方式 ， 因 此 直接 对 比 目 标 标 签 与 预测 标签 ， 计 算 准 确 率 、 召 回 率 、 碍 准 率 
己 ) 和 Fl 值 对 模型 性 能 进行 评价 。 参 考 混淆 矩阵 ， 对 应 的 计算 方式 如 下 : 
| TP+TN 


(1) 

accuracy Ny 

TP 
precision = 一 一 一 一 一 (2) 

TP+FP 
TP 
recall = 二 一 一 一 一 (3) 
TP+FN 
2 precision : recall 

F1 = (4) 


precision + recall 
) 其 中 ，N 表示 全 部 样本 ，TP 为 实际 真 、 预 测 真 的 样本 ，TN 为 实际 真 、 预 测 假 的 样本 ，FP 为 实际 
假 、 预 测 真 的 样本 ，FN 为 实际 假 、 预 测 假 的 样本 。 

(2) BLEU 评价 指标 

BLEU (Bilingual Evaluation Understudy) 较 多 用 于 评估 机 器 翻译 的 质量 ， 本 文中 通过 比较 生 
成 文本 与 参考 文本 N-gram 的 重合 程度 来 评估 预测 结果 的 好 坏 ， 两 者 的 重合 程度 越 高 ， 代 表 预 测 结 果 
越 好 。 

BLEU 指标 的 计算 公式 如 公式 (5) 所 示 ，Pn 表示 N-gram 的 精确 率 ， 即 N-gram 匹配 的 词 数 占 总 词 
数 的 比例 ，wn 表示 N-gram 的 权重 ， 一 般 取 值 为 1N。 由 于 Pn 只 针对 生成 文本 过 长 的 情况 进行 了 惩 
罚 ， 而 没有 考虑 生成 文本 过 短 的 情况 ， 因 此 加 入 BP 惩罚 因子 ， 若 生成 文本 比 参考 文本 长 度 短 ， 就 会 
受到 简短 惩 神 ， 如 公式 (6) 所 示 ， 其 中 lc 代表 生成 文本 的 长 度 ，1r 为 参考 文本 的 长 度 。 


N 
BLEU = BP x exp (> wn X an CS 


n=1 


4 seqeval: https://github.com/chakki-works/seqeval 


1 lc>lr 
一 lr 
| 一 志 ) lc < 1 “0 


历史 古籍 的 文言 文 文本 通常 由 单字 或 双 字 组 成 ， 且 生成 的 事件 长 度 通 常 较 短 ， 因 此 本 文 的 BLEU 
评价 指标 的 N 取 值 为 1，2。 
(3) ROUGE 评价 指标 

ROUGE (Recall-0riented Understudy for Gisting Evaluation) 指标 由 Chin-Yew Lin [36] 提 
出 ， 相 比 于 BLEU 指标 ，ROUGE 更 加 关注 召回 率 。ROUGE 指标 共 包 含 ROUGE-N，ROUGE-L，ROUGE-W， 
ROUGE-S 四 种 指标 。 本 文 的 ROUGE 指标 采用 ROUGE-1、ROUGE-2、ROUGE-L。 

ROUGE-N 统计 N-gram 的 召回 率 ， 计 算 公 式 如 公式 〈7) 所 示 ，p 表示 生成 文本 与 参考 文本 中 重合 
的 N-gram 的 个 数 ，q 表示 参考 文本 中 N-gram 的 个 数 。 本 文采 用 ROUGE-N 指标 的 N 取 值 为 1，2， 即 
ROUGE-1、ROUGE-2。 


ROUGE -N=2 (7) 


ROUGE-L 则 考虑 了 生成 文本 与 参考 文本 之 间 的 最 长 公共 子 序列 (Longest Common Subsequence， 


rr 


~ LCS)。ROUGE-L 计算 公式 ( 即 Flcs) 如 公式 〈8) - (10) 所 示 ， 其 中 C 表示 生成 文本 ，S 表示 参考 文 


+ 本 ，LCS (C, S) 表 示 C 与 $ 之 间 的 最 长 公共 子 序列 ，Rlcs 代表 召回 率 ，Plcs 代表 精确 率 ，B 一 般 取 值 
加 为 很 大 的 数值 ， 当 8 趋 近 于 无 穷 大 时 ，Plcs 就 可 以 忽略 不 计 ， 即 Flcs 等 于 Rlcs。 


_LCS(C, $) 人 
‘8 len(s) 
_LCS(C, $) i 
ls len(C) 
Fs (1 + PB”)RicsPics (10) 
Rics 十 PB2Pcs 


全 4 实验 结果 及 分 析 

人 一 4.1 序列 模型 与 生成 模型 的 对 比 实验 
全 序列 标注 方法 和 文本 生成 方法 都 是 目前 主流 的 事件 识别 方法 , 但 学 界 缺 少 两 种 方法 的 具体 比较 研 
它 究 。 本 文 针对 《三 国志 》 事 件数 据 集 ， 从 历史 古籍 的 古 汉语 角度 展开 两 种 方法 的 对 比 实验 。 序 列 模型 
〇 基于 BERT-BiLSTM-CRF-NER 模型 ， 生 成 模型 基于 T5 模型 ， 分 别 进 行 微调 实验 ， 在 原 预 训练 模型 的 基 
础 上 ， 对 《三 国志 》 事 件数 据 集 再 训练 ， 并 进行 预测 ， 两 种 方法 的 实验 结果 如 表 4 所 示 。 本 节 中 ， 序 
列 模 型 即 BBCN-SG 模型 ， 生 成 模型 即 T5-SG 模型 。 


表 4《 三 国志 》 事 件 识别 序列 模型 和 生成 模型 的 评价 指标 得 分 对 比 
r(%) p(%) f(%) 
序列 模型 56.37 79.62 66.61 
生成 模型 67.19 71.58 65.51 


*r: Tecall  p: precision f: Fl 


序列 模型 采用 BMES 标注 方法 , 因此 实验 输出 的 预测 结果 是 BMES 标签 ， 直接 通过 对 比 目 标 标签 与 
预测 标签 , 计算 模型 得 分 。 生 成 模型 实验 输出 的 预测 结果 是 文本 , 对 比 预测 文本 与 目标 文本 , 采用 BLEU 
和 ROUGE 指标 评价 模型 性 能 。 表 4 展示 序列 模型 和 生成 模型 的 召回 率 、 准 确 率 、F1 值 ， 其 中 ， 生 成 
模型 选择 ROUGE-1 指标 进行 比较 。 从 指标 得 分 来 看 ， 序 列 模型 在 预测 召回 率 上 明显 低 于 生成 模型 ， 但 
在 准确 率 和 Fl 值 上 均 大 于 生成 模型 。 但 本 文 的 序列 实验 采取 的 是 BMES 标注 方法 ， 除 了 句 首 的 “B? 


标签 和 句 尾 的 “E” 标 签 ， 只 有 名 中 相关 的 “M ”标签 和 无 关 的 “S$” 标 签 ， 几 乎 可 以 看 作 是 二 值 分 类 
的 问题 ， 所 以 准确 率 较 高 并 不 能 说 明 识 别 效果 好 ， 并 且 准 确 率 对 于 二 值 分 类 问题 来 说 并 不 高 。 因 此 ， 
单 从 指标 角度 分 析 , 很 难 区 分 序列 模型 与 生成 模型 部 优 熟 劣 , 还 需要 考虑 含义 准确 性 、 语 义 连 贯 性 等 。 

于 序列 模型 生成 的 预测 结果 是 BMES 标签 ， 需 要 按照 原 标签 转化 规则 将 其 转化 为 文本 ， 才 能 实 
现 应 用 。 但 是 在 转化 过 程 中 存在 以 下 的 问题 : 按照 标签 文本 转化 规则 ，“B 指 目标 文本 中 的 首 字 ，” 

指 目标 文本 的 中 间 字 , 因此 如 果 出 现 预测 标签 中 目标 文本 的 中 间 字 在 首 字 之 前 的 情况 , 即 “MW? 在“B’ 

之 前 ， 很 难 确 定 其 顺序 ， 如 表 5 所 示 ，“B” 表 示 “ 吴 ”第 一 个 “M” 表 示 “ 年 ”， 如 果 根 据 标签 文 本 
转化 规则 ,“ 年 ” 字 应 该 在 句 中 ,但 无 法 确认 其 具体 的 顺序 ， 并且 从 语义 角度 出 发 ,“ 年 ” 字 在 句 中 也 
会 影响 预测 文本 的 语义 连贯 性 。 


四 


表 5 基于 序列 模型 的 《三 国志 》 事 件 识别 实例 
原文 本 | 明年 。 吴 将 陆逊 向 庐江 
目标 文本 | 陆逊 向 庐江 
目标 标签 | ['S''S''S''S''S''B''M''M''M' IEI] 
预测 标签 | [S M'S B'M' MIM' MIM' 了 ] 
预测 文本 | 年 吴 将 陆 还 向 庐江 


~ 表 6 为 《三 国志 》 事 件 识 别 序列 模型 和 生成 模型 的 实例 对 比 。 序 列 模型 对 于 远 距 离 的 约束 ， 识 别 

) 效果 较 差 ， 如 实例 1-3， 序 列 模型 输出 的 预测 文本 缺少 语义 的 连贯 性 ， 难 以 理解 ， 并 不 能 有 效 识 别 历 
2 古籍 中 的 事件 。 而 生成 模型 即使 对 于 较 长 的 古 汉 语 ， 也 能 保证 识别 事件 的 语义 连贯 性 。 对 于 中 长 度 
二 的 古 汉 语 ， 如 实例 4-7， 整 体 上 ， 两 种 模型 识别 的 事件 都 能 大 致 与 原文 相关 ， 但 序列 模型 识别 事件 的 


加 语义 明显 不 如 生成 模型 连贯 ,脱离 原文 本 很 难 单独 理解 预测 文本 的 含义 ,生成 模型 虽然 部 分 事件 的 正 
GN 确 性 不 足 ， 如 实例 5， 识 别 的 事件 含义 与 原文 本 不 一 致 ， 但 能 保证 整体 语句 可 以 理解 。 对 于 长 度 短 的 
之 古 汉语 ， 两 种 模型 均 可 以 较 好 地 识别 事件 ， 并 能 保证 一 定 的 含义 准确 性 和 语义 连贯 性 , 但 生成 模型 识 


CN 别 的 事件 明显 优 于 序列 模型 。 此 外 ， 生 成 模型 的 预测 文本 中 包含 部 分 词组 ， 如 实例 中 的 “长 史 ”“ 合 
, 肥 ”“ 袁 绍 ” 等 ， 而 序列 模型 的 预测 文本 基本 还 是 单字 为 主 ， 无 法 识别 出 一 些 固定 词组 。 因 此 ， 在 含 


-二 义 准确 性 和 语义 连贯 性 等 角度 ， 序 列 模型 明显 不 如 生成 模型 。 


表 6 《三 国志 》 事 件 识别 序列 模型 和 生成 模型 的 实例 对 比 


序号 原文 本 目标 文本 序列 模型 预测 文本 生成 模型 预测 文本 
凑 于 后 索 兵 不 得 。 乃 单 遗 一 督 ”法 遗 督 迎 布 布 掩 ”法 索 不 乃 遗 督 步 七 广 。 凌 扒 督 将 斩 斩 督 
1 ”将 步 骑 七 百人 往 迎 之 。 布 夜 掩 ” 击 死伤 过 半 ” 迎 。 夜 击 督 进 死 过 将 
击 。 督 将 进 走 。 死 伤 过 半 


宠 驰 往 赴 。 募 壮士 数 十 人 折  ， 宠 烧 贼 攻 具 杀 泰 。” 宠 往 募 士 十 。 松 炬 灌 宠 诱 宠 杀 权 


5 松 为 炬 。 灌 以 肪 油 。 从 上 风 放 ” 退 贼 肪 。 上 放 “。 贼 具 射 权 了 村 
火 。 烧 贼 攻 具 。 射 杀 权 弟子 孙 孙 泰 贼 引 
泰 。 贼 于 是 引退 
宠 以 为 田 向 收 款 。 男 女 布 野 宠 遗 长 史 循 江东 ， 宠 田 向 计 男 布 。 屯 兵 城 宠 遗 长 史上 督军 破 
其 屯 卫 兵 去 城 远 者 数 百 里 可 ”下 摧 破 诸 屯 焚 ”者 百 。 手 也 遭 史 军 江 东 诸 屯 
掩 击 也 。 遗 长 史 督 三 军 循 江东 “” 伐 末 物 而 还 摧 破 屯 焚 末 而 
下 “。 摊 破 诸 屯 。 焚烧 末 物 而 还 
权 果 上 上 岸 炊 兵 。 宠 伏 军 座 起 击 ” 权 上 上 岸 油 兵 宠 伏 ” 权 岸 兵 宠 军 击 斩 数 或 走 权 斩 伏 军 又 
之 。 斩 首 数 百 。 或 有 赴 水 死者 。” 击 之 斩首 数 百 死 
5 ”公孙 琪 使 豫 守 东 州 令 。 豆 将 王 ”公孙 融 将 王 门 叛 孙 豆 守 州 豆 王 叛 琪 袁绍 ”袁绍 攻 袁绍 


门 叛 束 。 为 娟 绍 将 万 余人 来 攻 ” 玉 攻 东 州 余 来 


明年 。 权 自 将 号 十 万 。 至 合肥 ” 权 自 将 号 十 万 至 ”年 权 将 十 至 合肥 城 权 自 将 号 十 万 至 
新 城 合肥 新 城 合肥 新 城 
三 年 春 *。 权 遗 兵 数 干 家 个 于 江 权 遗 兵 个 于 江北 ” 年 权 遗 千 个 江 权 址 兵 数 干 家 个 
7 3 , 
北 于 江北 
8 明年， 吴 将 陆 进 向 庐江 陆 述 向 庐江 年 吴 将 陆逊 向 庐江 吴 将 陆逊 向 庐江 
9 ” 豫 时 年 少 。 自 托 于 备 了 豫 自 托 备 豫 少 自 于 备 耶 托 于 备 
10 ”和 耶 以 母 老 求 归 耶 以 母 老 求 归 了 豫 母 求 归 耶 求 归 豫 求 归 


对 于 序列 标注 方法 ， 事件 识别 不 同 于 命名 实体 识别 的 短 距离 约束 ,而 是 以 远 距 离 约 束 为 主 。 从 预 
测 结果 来 看 ， 序 列 标注 方法 对 于 包含 远 距 离 约束 的 事件 并 不 能 较 好 的 识别 ， 预 测 结果 的 含义 、 语 义 等 
均 较 差 。 从 预测 结果 的 平均 指标 得 分 来 看 ， 序 列 模型 的 召回 率 低 于 生成 模型 ， 但 准确 率 和 Fl 值 略 高 
于 生成 模型 。 但 从 预测 结果 具体 的 含义 准确 性 和 语义 连贯 性 来 看 ， 序 列 模型 远 不 如 生成 模型 。 综 上 ， 
序列 模型 在 《三 国志 》 事 件 识别 上 的 表现 不 如 生成 模型 。 
4.2 生成 模型 的 对 比 实验 
对 比 序列 模型 和 生成 模型 在 《三 国志 》 事 件 识别 上 的 表现 ， 可 以 发 现 生成 模型 具有 更 好 的 识别 效 
十 果 ， 因 此 增加 RoBERTa 和 NEZHA 两 个 预 训练 模型 ， 在 《三 国志 》 事 件数 据 集 上 再 微调 训练 ， 对 比 三 个 
”生成 模型 的 识别 效果 ， 以 BLEU 和 ROUGE 指标 评价 模型 性 能 ， 有 具体 得 分 对 比如 表 7 所 示 。 


表 7 三 个 《三 国志 》 事 件 识别 生成 模型 的 BLEU 及 ROUGE 评价 指标 得 分 对 比 


! ROUGE-1 ROUGE-2 ROUGE-L 
C% ) BLEU-1 BLEU-2 
: r p f r p | r p f 


下 SSG 47.04 33.46 67.19 71.58 65.51 48.58 45.17 44.04 64.70 68.65 63.02 


RSG $1.75 38.78 63.49 75.77 65.70 45.52 S3.29 46.35 62.07 73.48 64.07 


NEZHA-SG 46.86 32.13 37.32 71.77 60.83 37.37 42.49 37.76 55.93 69.91 59.35 


*r: recall p:precision f: Fl 


BLEU 指标 注重 精确 率 ， 从 BLEU 指标 来 看 ，RoBERTa-SG 模型 在 三 个 模型 中 得 分 最 高 ，T5-SG 模型 
次 之 ， 但 与 NEZHA-SG 模型 相差 不 大 。ROUGE 指标 的 精确 率 同样 如 此 ，RoBERTa > T5-SG=:*NEZHA-SG。 
ROUGE 指标 更 注重 召回 率 ，ROUGE-1、ROUGE-2、ROUGE-L 指标 的 召回 率 均 是 T5-SG 模型 得 分 最 高 ， 
RoBERTa-SG 模型 次 之 ，NEZHA-SG 模型 最 低 。 因 此 ， 如 图 2 所 示 ， 三 个 模型 从 召回 率 角度 ，T5-SG 模型 
最 好 ; 从 精确 率 角 度 ，RoBERTa-SG 模型 最 好 ，NEZHA-SG 模型 表现 不 如 其 他 两 个 模型 。 仅 从 指标 得 分 
来 看 ， 将 所 有 指标 相 加 ，RoBERTa-SG 在 3 个 生成 模型 中 得 分 最 高 ，3 个 模型 的 表现 依次 是 RoBERTa- 
SG > T5-SG > NEZHA-SG。 
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图 2 三 个 《三 国志 》 事 件 识别 生成 模型 的 BLEU 及 ROUGE 评价 指标 对 比 
(ROUGE 指标 选取 召回 率 进行 对 比 ) 


4.3 生成 模型 的 集成 学 习 实 验 

虽然 RoBERTa-SG 模型 在 《三 国志 》 事 件 识 别 上 的 整体 表现 最 好 ， 但 从 召回 率 的 角度 来 看 ，T5-SG 
模型 得 分 最 高 。 因 此 ， 笔 者 进一步 探究 3 个 生成 模型 在 具体 实例 上 的 表现 。 

如 表 8 所 示 ， 在 具体 实例 上 ，3 个 生成 模型 并 非 完 全 是 某 一 种 模型 的 表现 最 好 ， 而 是 存在 一 定 的 
中 互补 性 。 以 BLEU-2 指标 为 衡量 标准 ， 实 例 1 是 NEZHA-SG 模型 得 分 最 高 ， 实 例 2 是 RoBERTa-SG 模型 
”得 分 最 高 ， 实 例 3 是 T5-SG 模型 得 分 最 高 ， 实 例 4 是 三 个 模型 得 分 相同 。 因 此 ， 联 想到 Stacking 集 
:= 成 学 习 的 思想 ， 将 3 个 生成 模型 结合 ， 可 以 大 大 提高 模型 的 识别 效果 。Stacking 集成 学 习 思想 可 以 

简单 理解 为 并 行 学 习 多 个 异 质 弱 学 习 器 ， 并 通过 一 个 “元 ”模型 将 它们 组 合 起 来 ， 输 出 一 个 最 终 的 预 
所 测 结果 。 由 于 3 个 生成 模型 的 模型 结构 并 不 相同 ， 很 准将 3 个 生成 模型 直接 组 合 ， 结 合 Bagging 集成 
学 习 的 方法 ， 采 取 投 票 的 方式 聚合 预测 结果 。 以 BLEU 指标 为 投票 标准 ， 对 三 个 生成 模型 的 预测 结果 
C) 进行 排序 ， 最 终 以 得 分 最 高 的 预测 结果 作为 Stacking 集成 学 习 的 最 终结 果 。 据 BLEU 指标 的 原理 ， 
BLEU-2 指标 比 BLEU-1 指标 的 要 求 更 为 苛刻 ， 因 此 @ 先 以 BLEU-2 指标 排序 ，@ 若 BLEU-2 指标 相同 ， 
则 以 BLEU-1 指标 排序 ; @ 若 BLEU-2、BLEU-1 指标 均 相 同 ， 则 以 ROUGE 指标 排序 ， 由 于 ROUGE 指标 注 
重 召回 率 ， 而 T5-SG 模型 的 召回 率 最 高 ， 所 以 按照 T5-SG > RoBERTa-SG > NEZHA-SG 的 顺序 选择 预测 
结果 为 最 终结 果 。 表 8 中 四 列表 示 考 虑 BLEU-2 指标 后 的 排序 结果 , @ 列 表示 综合 考虑 BLEU-2、BLEU- 
1 指标 后 的 排序 结果 ，@@) 列 表示 最 终 的 排序 结果 ， 即 Stacking 集成 学 习 的 最 终结 


bh 


V:2 


表 8 3 个 《三 国志 》 事 件 识 别 生成 模型 具体 指标 对 比 


TS RoBERTa NEZHA TS RoBERTa NEZHA 


序号 BLEU-2 山 BLEU-1 © ® 


1 0.00% 0.00% 9.10% NEZHA 15.16% 4.93% 24.56% NEZHA NEZHA 

2 0.00% 3.51% 0.00% RoBERTa 12.11% 10.54% 13.38% RoBERTa RoBERTa 
3 100.00% 80.43% 30.16% TS 100.00% 90.48% 54.29% TS TS 
4 
5 


00.67% 66.67% 66.67% 相同 71.43% 71.43% 71.43% 相同 TS 
23.08% 50.00% 50.00% RoNE 28.57% 57.14% 57.14% Ro\NE RoBERTa 


均值 作为 Stacking-TRN-SG 模型 的 最 终 
型 ， 说 明 模 型 的 识 从 力 


表 9 Stacking-TRN-SG 模型 BLEU 及 ROUGE 评价 指标 得 分 


0.00% 0.00% 0.00% 相同 10.74% 10.74% 17.97% NEZHA NEZHA 
0.00% 0.00% 0.00% 相同 16.67% 8.33% 0.00% TS TS 
72.73% 72.73% 60.00% TS\Ro 75.00% 75.00% 72.73% TS\Ro TS 
22.47% 9.55% 22.47% TS\NE 35.95% 21.49% 44.93% NEZHA NEZHA 
81.87% 44.44% 81.87% TS\NE 81.87% $50.00% 81.87% TS\NE TS 

将 集成 学 习 后 的 预测 文本 与 目标 文本 进行 对 比 ， 计 算 每 一 条 文本 的 BLEU 和 ROUGE 指标 得 分 ， 求 


得 分 如 表 9 所 示 ， 所 有 指标 均 高 于 3 个 基础 的 生成 模 


得 分 。 和 f 


别 效果 取得 了 较 大 的 提高 。 


BLEU- BLEU- ROUGE-!1 ROUGE-2 ROUGE-L 
1 2 r p f r P f r p f 
Stacking-TRN-SG 63.40 S51.04 70.35 77.72 71.42 54.45 S57.25 S53.61 68.78 75.90 69.83 
47.04 33.46 67.19 71.58 65.51 48.58 45.17 44.04 64.70 68.65 63.02 
51.75 38.78 63.49 75.77 65.70 45.52 53.29 46.35 62.07 73.48 64.07 
46.86 32.13 57.32 71.77 60.83 37.37 42.49 37.76 55.93 69.91 59.35 
具体 集成 学 习 生 成 的 实例 如 表 10 所 示 。 集 成 学 习 后 的 生成 模型 取 三 者 最 优 ， 识 别 结果 的 含义 更 
加 淮 确 ， We， 无 论 是 长 文本 还 是 短文 本 , Stacking-TRN-SG 输出 的 识别 事件 都 容易 理解 、 
能 够 保留 古 汉 语 单 字 居 多 的 特点 。 然 而 , 部 分 含义 仍然 不 够 准确 , 还 需要 进一步 研究 。 


表 10 3 个 《三 国志 》 事 件 识别 生成 模型 的 识别 实例 对 比 


序号 原文 本 目标 文本 TS-SG ee NEZHALSG EY 
凌 于 后 索 兵 不 得 乃 单 遗 一 督 将 ” 凌 遗 督 迎 布 布 掩 凌 的 督 凌 单 兵 不 凌 让 骑 骑 凌 遗 骑 骑 和 干 
步 骑 七 百人 往 迎 之 布 夜 掩 击 击 死伤 过 半 将 斩 斩 得 干 人 往 破 人 人 往 破 督 督 
督 将 进 走 死伤 过 半 督 将 督 督 
宠 驰 往 赴 募 壮士 数 十 人 折 松 ” 宠 烧 贼 攻 具 杀 泰 宠 诱 宠 宠 引 火烧 宠 遗 人 壮 宠 引 火烧 贼 
为 炬 灌 以 麻油 从 上 风 放 火 烧 ” 退 贼 杀 权 贼 赶 赶 贼 
贼 攻 具 射 杀 权 弟 子孙 泰 贼 于 
是 引退 
宠 以 为 田 向 收 计 男女 布 野 其 宠 遭 长 史 循 江东 宠 遗 长 史 宠 向 田 向 宠 站 三 军 宠 址 长 史 督 
屯 卫 兵 去 城 远 者 数 百 里 可 掩 击 下 摊 破 诸 屯 焚 督军 破 破 诸 地 破 之 十 军 破 诸 十 


也 中 长 史 督 三 军 循 江东 下 摧 ， 烧 末 物 而 还 诸 证 
破 诸 屯 焚烧 末 物 而 还 


权 果 上 上 岸 油 兵 宠 伏 军人 兴起 击 之 “ 权 上 岸 焰 兵 宠 伏 权 斩 伏 权 斩 兵 宠 权 斩 斩 军 权 斩 兵 宠 


斩首 数 百 或 有 赴 水 死者 击 之 斩首 数 百 军 六 斩 斩 斩 夷 
公孙 瑛 使 豫 守 东 州 令 瑛 将 王 门 ”公孙 瑛 将 王 门 叛 ”袁绍 昌 时 


攻 率 豆 使 王 门 公孙 囊 叛 囊 使 王 门 叛 

叛 豆 为 袁绍 将 万 余人 来 攻 豆 攻 东 州 叛 豆 珊 融 

明年 权 自 将 号 十 万 至 合肥 新 权 自 将 号 十 万 至 权 自 将 权 将 号 十 权 率 率 五 权 自 将 号 十 

城 合肥 新 城 号 十 万 至 万 至 合肥 万 进 合 肥 万 至 合肥 新 
合肥 新 城 ”新 城 新 城 城 

三 年 春 权 遗 兵 数 干 家 个 于 江北 ” 权 遗 兵 个 于 江北 权 遗 兵权 遗 兵 数 权 遗 兵 个 权 遗 兵 个 于 
数 于 家 于 家 于 江 于 江北 汪 站 
个 于 江北 北 

明年 吴 将 陆逊 向 庐江 陆逊 向 庐江 吴 将 陆 吴 将 陆逊 吴 将 陆逊 吴 将 陆逊 向 
还 向 庐江 向 庐江 向 庐江 庐江 

豫 时 年 少 自 托 于 备 豫 自 托 备 了 驳 托 于 了 殉 时 少 托 耶 少 少 自 豫 少 少 自 托 
备 于 备 托 备 备 

豫 以 母 老 求 归 豫 以 母 老 求 归 了 殉 求 归 豫 以 老 隔 以 老 老 聊 以 母 老 求 
了 泡 求 归 求 归 求 归 归 


5 总 结 


历史 古籍 是 传承 中 华文 化 的 重要 载体 ， 基 于 历史 古籍 构建 知识 图 谱 可 以 直观 地 向 人 们 展示 历史 ， 
而 事件 识别 是 构建 知识 图 谱 的 重要 一 坏 ， 因 此 实现 历史 古籍 的 自动 事件 识别 是 很 有 必要 的 。 由 于 古 汉 
语 具 有 单字 居多 、 语 义 难 以 理解 等 特点 ， 学 界 缺 少 对 于 古 汉语 的 事件 识别 研究 。 此 外 ， 序 列 标注 方法 
和 文本 生成 方法 是 目前 主流 的 两 种 事件 识别 方法 ， 但 缺少 对 于 两 种 方法 的 具体 实例 对 比 研究 。 因 此 ， 
本 文选 取 《 三 国志 》 为 原始 语 料 , 分 别 从 序列 标注 与 文本 生成 两 个 方法 展开 实验 。 序列 标注 实验 对 《三 
国志 》 事 件数 据 集 进行 BMES 标注 ， 应 用 BERT-BiLSTM-CRF-NER 模型 进行 训练 和 预测 。 文 本 生成 实验 
则 应 用 T5 预 训练 模型 进行 训练 和 预测 。 选 取 BLEU 与 ROUGE 评价 指标 对 预测 结果 量化 评价 ， 并 结合 含 
义 准 确 性 、 语 义 连贯 性 等 因素 评估 模型 性 能 。 实 验 发 现 ， 文 本 生成 方法 在 《三 国志 》 事 件数 据 集 上 的 
表现 大 大 超过 序列 标注 方法 。 又 选取 RoBERTa、NEZHA 两 个 预 训 练 模 型 进行 事件 识别 训练 。 从 预测 结 
果 上 来 看 ， 三 个 模型 的 整体 表现 则 是 RoBERTa-SG > T5-SG > NEZHA-SG， 但 也 存在 一 定 的 互补 性 。 融 
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入 Stacking 集成 学 习 的 思想 ， 结 合 三 个 文本 生成 模型 ， 构 建 Stacking-TRN-SG 模型 ， 相 比 于 3 个 基 
础 的 生成 模型 ， 识 别 效果 大 大 提高 。Stacking-TRN-SG 模型 识别 出 的 事件 能 够 保证 一 定 的 含义 准确 、 
语义 连贯 , 并 且 可 以 体现 出 古 汉 语 单 字 居 多 等 特点 , 召回 率 也 达到 70. 35%， 取 得 了 较 好 的 识别 效果 ， 


tt 


初步 实现 历史 古籍 的 自动 事件 识别 。 
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